身体 活动 的 双 系 统 理论 : 一 种 强化 学 习 的 视角 * 


eT 13 FERF? KKE? 
(1 上 海 工程 技术 大 学 体育 教学 部 ， 上 海 201620) C 同济 大 学 国际 足球 学 院 ， 上 海 200092) 上 
海 体育 学 院 休 闲 学 院 ， 上 海 200438) 


摘 要 以 理性 决策 为 基础 的 锻炼 行为 理论 被 认为 是 理解 身体 活动 的 主导 体系 ， 它 提供 了 与 身 
体 活动 相关 的 认 知 构 念 作为 有 价值 的 信息 。 基 于 社会 生态 模型 设计 的 行为 干预 措施 ， 因 表现 出 
了 更 好 的 效果 而 备 受 关注 。 近 期 研究 表明 ， 积 极 的 运动 认 知 和 当前 体育 环境 都 没 能 很 好 地 促进 
个 人 锻炼 习惯 的 养 成 ， 因 此 有 必要 探索 新 的 理论 体系 来 阐明 个 人 锻炼 习惯 的 形成 机 制 。 解 释 身 
， 由 于 其 考虑 了 身体 活动 的 无 意识 和 快乐 决定 因素 ， 有 望 提 供 
一 个 更 广泛 的 动机 视角 。 一 方面 ， 多 个 有 代表 性 的 身体 活动 双 系统 模型 ， 从 简单 的 自发 路 径 ， 

到 情境 线索 与 锻炼 习惯 ， 再 到 突出 自动 情感 评价 作用 的 复杂 概念 模型 ， 阅 明了 系统 1 的 构建 ， 
T 结合 锻炼 行为 理论 所 关注 的 系统 2 为 模型 的 构建 提供 了 依据 。 另 一 方面 ， 通 过 对 双 系 统 的 竞 
= 争 、 协 调和 层级 控制 原则 的 分 析 ， 为 模型 的 控制 提供 了 建议 。 经 典 的 强化 学 习 框架 解释 了 双 系 
统 模型 的 构建 与 控制 原则 : 在 模型 的 构建 方面 ， 无 模型 与 基于 模型 的 强化 学 习 分 别 表 示 系 统 1 
和 系统 2。 在 模型 的 控制 方面 ，Dyna 协作 架构 与 分 层 强化 学 习 ， 为 身体 活动 可 能 是 一 种 相互 协 
作 、 分 层 执行 的 复杂 行动 组 合 提供 了 合理 解释 。 最 后 提出 强化 学 习 视 角 下 锻炼 者 -体育 环境 的 互 
动 模式 ， 试 图 从 一 个 全 新 的 角度 探讨 锻炼 行为 。 
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1 引言 


经 常 进行 身体 活动 有 助 于 促进 入 们 的 身心 健康 ， 因 此 积极 参加 体育 锻炼 ， 养 成 良好 的 
个 人 锻炼 习惯 十 分 重要 (Rhodes, Janssen, Bredin, Warburton, & Bauman, 2017)。 过 去 的 几 十 
年 时 间 里 , 研究 者 在 理解 和 预测 个 人 行为 方面 取得 了 巨大 进展 , 提出 了 诸如 健康 信念 模型 、 
计划 行为 理论 、 上 自我 决定 理论 以 及 跨 理 # cc nu ee 
ec 2007)。 这 些 理论 主要 以 理性 决策 为 基础 ， 认 为 人 们 只 要 意识 到 锻炼 的 益处 ， 就 会 产生 参与 
c 锻炼 的 意向 、 动 机 ， 从 而 进行 有 规律 的 体育 锻炼 〈 许 昭 ， 毛 志雄 ， ee 然而 迄今 为 止 ， 
依据 这 些 理论 设计 的 行为 干预 措施 都 没 能 有 效 扩大 锻炼 者 的 范围 并 取得 长 期 而 持久 的 效果 
〈 朱 为 模 ，2009)， 积 极 的 运动 认 知 并 未 发 现 直 接 促进 儿童 青少年 活动 水 平 的 作用 〈 郭 强 ， 
ERR, ER, 2017). AX, 社会 生态 模型 由 于 纳入 环境 因素 对 个 体 的 影响 ， 它 的 提出 
促使 对 锻炼 行为 的 理论 研究 从 个 人 水 平 跃升 到 多 层次 的 总 体 水 平 ， 并 因 其 表现 出 更 好 的 干 
MAR, ZAMKE ZKE ha, MAM, 2016; 张 展 嘉 , EEL, THE, Rea, 
2018)。 张 加 林 等 人 《2017) 按 日 常 的 生活 空间 将 体育 环境 划分 为 家 庭 、 社区 及 其 他 
体育 环境 ， 家 庭 、 学 校 、 社 区 体 Pe 组 织 、 社 区 三 个 
层面 上 。 鉴 于 环境 层面 的 评分 普遍 高 于 行为 层面 ， 认为 当前 体育 环境 并 没 能 更 好 地 促进 儿 
童 青 少年 锻炼 习惯 的 养 成 。 

笔者 推测 这 可 能 与 两 个 方面 的 因素 有 关 : 首先 ， 相 比较 于 由 知识 、 态 度 和 技能 所 组 成 
的 个 人 层面 , 环境 层面 的 因素 作为 影响 锻炼 行为 的 远 端 效应 , 影响 力 可 能 相对 较 弱 。 其 次 ， 
多 数 个 人 行为 是 自动 化 的 ， 受 情境 线索 (context cues) 的 提示 ， 导 致 行为 几乎 不 会 伴随 有 
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意识 的 思考 CMarteau, Hollands, & Fletcher, 2012)。 因 此 有 必要 探索 新 的 理论 体系 来 前 明 个 
人 锻炼 习惯 的 形成 机 制 。 用 于 解释 身体 活动 的 最 新 体系 是 双 系 统 理论 ， 它 认为 身体 活动 是 
由 自动 化 过 程 (习惯 ) 和 目标 定向 控制 过 程 ( 意 向 ) 共 同调 控 的 复杂 行为 (Rebar et al., 2016). 
从 模型 的 构建 与 控制 两 个 方面 ， 本 研究 对 已 有 身体 活动 相关 的 双 系 统 模型 进行 了 介绍 ， 并 
引入 强化 学 习 (reinforcement learning, RL) 框架 ， 解 释 双 系统 模型 的 构建 与 控制 原则 ， 同 
时 从 RL 角度 出 发 ， 提 出 锻炼 者 -体育 环境 的 互动 模式 ， 用 以 冰释 锻炼 行为 。 


2 身体 活动 的 双 系 统 模型 


在 认 知 与 社会 心理 学 研究 中 , 双 系 统 理论 认为 行为 现象 是 两 种 不 同 的 心理 过 程 的 结果 。 
1 型 加 工 CARE ID 被 认为 是 快速 和 自动 化 的 ， 因 为 它 需 要 最 小 的 认 知 资源 和 努力 ;2 型 加 
工 〈 系 统 2) 通常 被 认为 是 缓慢 和 熟 虑 的 ， 采 用 更 多 受 控 推理 (Evans & Stanovich, 2013). 
对 双 系 统 的 描述 有 许多 不 同 的 名 称 ， 其 中 系统 1 被 命名 为 内 隐 、 情 境 、 联 想 、 启 发、 经 验 、 
冲动 ， 对 应 的 系统 2 被 命名 为 外 显 、 抽 象 、 命 题 、 分 析 、 理 性 、 熟 虑 ， 这 些 不 同 的 模型 命 
名 通常 强调 了 人 的 思想 、 情 感 和 行为 的 不 同方 面 。 虽 然 理 论 上 习惯 的 自动 化 和 无 意识 特征 
似乎 与 身体 活动 所 需 的 努力 和 复杂 性 相 矛 盾 ， 但 习惯 作为 大 脑 的 捷径 ， 允 许 人 们 在 成 功 参 
与 日 常生 活 行为 的 同时 ， 将 推理 和 执行 能 力 留 给 其 他 想法 和 行动 。 

系统 评述 与 元 分 析 方 法 的 研究 表明 ， 身 体 活 动 亦 属于 由 目标 定向 控制 过 程 〈 意 向 ) 和 
自动 化 过 程 ( 习 惯 ) 共 同调 控 的 双 系 统 理论 范畴 (Gardner Phillips, & Judah, 2011; Rebar et al., 
2016)。 一 方面 ， 对 计划 行为 理论 Ctheory of planned behavior, TPB) 应 用 于 身体 活动 的 元 分 
析 研 究 表明 ， 意 向 与 锻炼 行为 之 间 的 相关 性 处 于 中 等 水 平 (r = 0.48; McEachan, Conner, 
Taylor, & Lawton, 2011)。 男 一 方面 ，Rebar A (2016) 发 现 ， 在 37 项 关于 锻炼 习惯 的 研 
究 中 ， 有 70% 的 研究 显示 自我 报告 测量 的 习惯 与 锻炼 行为 之 间 存 在 显著 的 正 相 关 。 并 且 两 
篇 评述 都 得 出 一 致 的 结论 ， 认 为 习惯 与 锻炼 行为 之 间 存 在 中 等 水 平 的 相关 性 (r = 0.43， 
Gardner et al., 2011; r = 0.32, Rebar et al., 2016)。 因 此 ， 目 前 的 研究 证 实 了 意向 和 习惯 分 别 与 
锻炼 行为 之 间 存 在 中 等 强度 的 正 相 关 ， 意 向 与 习惯 均 是 影响 锻炼 行为 的 重要 因素 。 

尽管 以 理性 决策 为 基础 的 锻炼 行为 理论 目前 仍 是 身体 活动 研究 领域 中 的 主导 方法 ， 然 
而 考虑 到 体系 的 效率 问题 ， 研 究 者 也 开始 强调 快速 、 自 动 和 无 意识 因素 (习惯 ) 在 身体 活 
动 中 的 重要 作用 ， 并 逐步 提出 和 完善 了 身体 活动 的 双 系 统 模型 。 笔 者 认为 对 于 身体 活动 双 
系统 模型 的 研究 需要 涵盖 两 方面 的 问题 : 首先 ,如何 合理 构建 身体 活动 双 系统 模型 中 系统 I 
和 系统 2, 即 模型 的 构建 问题 。 其 次 , 如 何 有 效 控制 身体 活动 双 系统 模型 中 系统 1 和 系统 2， 
即 模型 的 控制 问题 。 
2.1 身体 活动 双 系 统 模型 中 系统 1 的 构建 

在 系统 1 的 构建 方面 ， 身 体 活动 整合 行为 改变 (Integrated Behavioral Change, IBC) 模 
型 通过 整合 TPB、 自 我 决定 理论 、 两 阶段 模型 和 双 系 统 模 型 的 主要 特点 于 一 体 ， 试 图 弥补 
锻炼 行为 理论 模型 的 不 足 , 但 它 所 构建 的 自发 路 径 相 对 简单 (Hagger & Chatzisarantis, 2014). 
习惯 理论 模型 则 强调 情境 线索 是 通过 自动 化 过 程 影响 身体 活动 的 ， 在 体育 环境 与 个 人 锻炼 
习惯 的 养 成 之 间 构 建 了 一 条 合理 的 路 径 ， 为 改变 不 良 生 活 方式 的 干预 策略 设计 提供 了 新 的 
目标 (Wood & Runger, 2016)。 而 突出 自动 情感 评价 Cautomatic affective evaluations) 作用 
的 身体 活动 双 系统 模型 ， 通 过 自动 情感 评价 将 情境 线索 与 身体 活动 联系 起 来 ， 充 分 考虑 了 
身体 活动 的 情感 因素 , 可 以 更 好 地 解释 情感 启发 下 的 复杂 锻炼 行为 (Conroy & Berry, 2017). 
2.4.41 自发 路 径 

FH Ajzen (1991) 提出 的 TPB 假设 行为 意向 是 影响 行为 最 直接 的 因素 ， 行 为 意向 反 过 
来 受 态 度 、 主 观 规范 和 主观 行为 控制 的 影响 〈 段 文 婷 ， 江 光荣 ，2008)。TPB 由 于 其 理论 模 
型 的 简洁 性 、 便 于 操作 性 ， 在 锻炼 行为 改变 领域 得 到 了 大 多 数 锻炼 心理 学 家 的 认可 〔 沈 梦 
Xx 等 ，2010)。 目 前 ， 对 于 如 何 扩展 TPB 模型 以 提高 它 对 行为 的 解释 力 和 预测 力 ， 也 一 度 


u 


成 为 研究 者 所 关注 的 热点 〈Ajzen, 2001; Sniehotta, Presseau, & Araujo-Soares, 2014)。 近 来 由 
Hagger 和 Chatzisarantis (2014) 基于 TPB 提出 的 身体 活动 IBC 模型 ， 描 述 了 来 自 多 种 理论 
的 动机 与 心理 构 念 ， 对 身体 活动 参与 行为 的 影响 的 熟 虑 与 自发 路 径 。 
其 中 ， 熟 虑 路 径 是 由 自我 决定 理论 的 自主 动机 对 身体 活动 的 远 端 效应 构建 的 ， 这 种 远 
端 效应 是 由 TPB 的 态度 、 主 观 规范 、 主 观 行为 控制 、 意 向 构 念 来 调节 的 。 自 发 路 径 包 括 内 
隐 态 度 和 内 隐 动 机 对 身体 活动 的 直接 影响 。Calitri 等 人 (2009) 通过 研究 发 现 ， 当 控制 由 
自我 报告 测量 的 外 显 态 度 时 , 对 身体 活动 的 积极 内 隐 态 度 与 身体 活动 参与 水 平 呈 显著 相关 。 
另外 ，Keatley A (2012) 的 研究 主要 关注 内 隐 动 机 对 身体 活动 的 影响 ， 提 出 自主 和 控制 
形式 的 动机 可 以 在 外 显 和 内 隐 两 个 层面 运行 ， 并且 内 隐 动 机 和 外 显 动 机 对 身体 活动 均 有 显 
著 的 影响 。 其 中 ， 外 显 动 机 对 身体 活动 参与 的 影响 是 由 意向 介 导 的 ， 而 内 隐 动 机 的 影响 是 
直接 的 、 非 中 介 的 ， 这 也 证 实 了 内 隐 动 机 可 以 反映 自发 路 径 对 身体 活动 的 影响 。 

在 IBC 模型 中 ，TPB 的 构 念 取代 了 自我 决定 理论 的 调节 构 念 ， 同 时 该 模型 也 使 用 了 阶 
段 性 结构 〈 动 机 性 、 意 志 性 )， 并 考虑 了 熟 虑 和 内 隐 决 定 因素 对 身体 活动 的 作用 ， 弥 补 了 早 
期 锻炼 行为 理论 的 不 足 。 然而 IBC 模型 仍 有 一 些 方面 需要 改进 (Rhodes, 2014)。 例 如 ，IBC 
模型 可 能 缺乏 对 身体 活动 中 情感 方面 的 考虑 。 相 比 TPB 中 的 一 般 态度 构 念 ， 自 我 决定 理论 
的 内 部 调节 构 念 可 以 更 好 地 构建 这 个 情感 领域 ， 但 在 IBC 模型 中 被 省 略 。 此 外 ，IBC 模型 
并 没有 提 及 社会 生态 环境 的 作用 , 与 熟 虑 路 径 相 比较 , 对 于 自发 路 径 的 构建 显得 太 过 简单 。 
2.1.2 ”情境 线索 与 锻炼 习惯 

相 较 于 IBC 模型 中 简单 的 自发 路 径 ，Wood 和 Runger (2016) 提出 的 习惯 理论 模型 强 
调情 境 线索 通过 激活 相应 的 记忆 表征 来 诱导 习惯 的 应 答 。 随 着 时 间 的 推移 ， 如 果 行 为 发 生 
在 具有 相似 线索 的 环境 中 ， 那 么 可 以 假设 一 种 习惯 只 会 引发 一 种 相应 的 行动 提示 
(cue-to-action), 用 以 蔡 代 该 行为 的 熟 虑 和 以 目标 为 基础 的 决策 。 从 双 系 统 模型 的 角度 看 ， 
这 种 习惯 的 应 答 被 认为 是 更 有 效 的 默认 ， 因 为 注意 力 和 努力 可 以 被 释放 到 其 他 需要 关注 的 
方面 。 只 有 当 系 统 中 出 现 值得 关注 的 变化 时 《比如 移 除 的 线索 ， 精 神 状态 的 改变 )， 才 会 使 
注意 力 回 到 更 有 意识 和 熟 虑 的 系统 。 

另外 ， 锻 炼 习 惯 也 适用 于 上 述 习 惯 理论 模型 。 首 先 ， 锻 炼 目 标 〈 比 如 减肥 、 健 身 ) 通 
过 激励 人 们 进行 反复 的 锻炼 实践 和 促使 他 们 接触 锻炼 情境 来 影响 个 人 锻炼 习惯 的 形成 。 一 
旦 形成 锻炼 习惯 ,情境 线索 (比如 锻炼 场景 、 其 他 锻炼 者 和 先前 的 锻炼 体验 ) 会 自动 激活 
记忆 中 的 习惯 表征 《比如 锻炼 强度 、 时 间 与 频率 )。 例 如 ，Neal SEA (2012) 发 现 ， 当 那 
些 具有 更 强烈 跑步 习惯 的 锻炼 者 接触 到 与 经 常 跑步 的 情境 相关 的 词语 (比如 运动 场所 名 称 ) 
时 ， 就 会 自动 联想 到 跑步 与 慢跑 。 并 且 ， 对 那些 定期 进行 锻炼 者 的 研究 发 现 ， 大 约 90% 的 
人 都 会 有 一 个 特定 的 锻炼 场景 或 时 间 线 索 提 示 ， 而 那些 日 常 通过 特定 的 场景 提示 进行 锻炼 
的 人 ， 他 们 对 锻炼 习惯 的 应 答 会 更 加 突出 〈Tappe & Glanz, 2013 )。 当 经 常 去 校园 体育 馆 的 
学 生 们 接触 到 体育 馆 的 场景 时 ， 由 于 习惯 了 这 种 场景 ， 他 们 会 主动 地 提高 自己 说 话 的 音量 
(Neal, Wood, Labrecque, & Phillippa, 2012). 
其 次 ， 人 们 不 仅 会 关注 到 他 们 已 经 形成 的 锻炼 习惯 ， 还 会 关注 他 们 锻炼 的 目标 。 除 非 
锻炼 者 有 足够 的 动机 ， 依 据 当 前 的 情况 调整 他 们 的 锻炼 行为 ， 否 则 锻炼 习惯 就 会 成 为 一 种 
默认 的 应 答 方式 。 例 如 ， 当 锻炼 者 参加 身体 活动 的 意向 比 平 时 要 弱 的 时 候 ， 他 们 会 倾向 于 
依靠 锻炼 习惯 , 只 锻炼 到 习惯 的 运动 强度 (Rebar, Elavsky, Maher, Doerksen, & Conroy, 2014). 
而 深入 研究 发 现 ， 行 动 规划 增加 了 锻炼 习惯 相对 较 弱 者 的 身体 活动 水 平 ， 但 与 没有 行动 规 
划 的 锻炼 者 相 比 ， 行 动 规划 减少 了 上 有 具有 强烈 锻炼 习惯 者 的 身体 活动 水 平 (Maher & Conroy, 
2015)。 此 外 ， 中 等 强度 的 习惯 会 自动 受到 目标 的 影响 ， 产 生 一 个 习惯 强度 与 现实 目标 有 着 
互动 关系 的 UU 型 曲线 (Neal etal., 2012)。 许 多 有 跑步 习惯 的 锻炼 者 强烈 认同 ， 他 们 的 跑步 
活动 受到 了 自身 目标 的 影响 ,在 适当 情境 下 , 只 有 当 习 惯 处 于 中 等 强度 时 才 会 被 目标 激活 。 
一 旦 习惯 很 强烈 ， 目 标 几乎 没有 作用 ， 而 无 论 当 前 目标 如 何 ， 情 境 线 索 依旧 可 以 激活 习惯 


的 应 答 。 另 外 ， 人 们 会 根据 他 们 的 锻炼 行为 来 


理 自 身 的 锻炼 目标 。 


2.1.3 ”情境 线索 、 自 动情 感 评价 与 身体 活动 


对 身体 活动 的 自动 
中 被 激活 时 ， 


情感 评价 是 一 种 直觉 
迅速 、 非 自愿 产生 的 情感 体验 ， 被 认为 是 随 着 时 间 的 推 


反应 ， 它 反映 了 当 锻 炼 的 概念 在 一 个 


移 和 通过 锯 


人 的 头脑 
炼 的 体验 


而 习 得 的 联想 (Conroy & Berry, 2017). 然而 , 一 些 研究 者 似乎 更 喜欢 使 用 内 隐 和 态度 CCalitri， 
Lowe, Eves, & Bennett, 2009; Markland, Hall, Duncan, & Simatovic, 2015) 或 情感 联想 (Sala, 


Baldwin, & Williams, 2016) 来 表述 自动 情感 评价 ， 但 这 些 术语 的 同 义 用 法 通常 是 
的 。 在 情感 和 健康 行为 体系 的 背 


不 被 接受 


9 景 下， 自动 情感 评价 最 类 似 于 IBC 模型 中 内 隐 态 度 的 自动 


情感 处 理 方式 ， 它 反映 了 对 身体 活动 的 瞬时 情感 评价 ， 并 可 以 从 对 身体 活动 的 直接 或 替代 


体验 中 获得 (比如 在 身体 活动 中 观察 他 人 时 所 唤醒 的 情感 ，Williams & Evans, 2014). 
Conroy 和 Berry (2017) 提出 的 强调 自动 情感 评价 


的 情感 过 程 提供 


情感 评价 ， 


意识 的 处 理 或 六 


虑 情感 过 程 


过 程 被 认为 是 决定 锻炼 动机 
图 1 总 


念 模型 


了 联想 的 效 价 和 强度 。 当 一 个 人 
这 种 激活 方式 可 以 扩散 到 网 络 中 密切 相关 的 节点 《比如 特征 
要 经 历 明显 的 快乐 或 不 快乐 的 情况 下 , 可 能 会 


了 内 部 奖励 以 激励 身体 活动 〈 近 端 


FE 用 的 身体 活动 双 系 统 模 型 ， 


由 
认为 愉快 


效应 )。 另 外 ， 自 动情 感 评价 不 


晶 两 种 评价 可 能 存在 


重 登 。 自 动情 感 评价 可 以 快速 、 


(比如 情感 预 


。 具 体 而 言 ， 自 动情 感 评价 是 
根据 身体 活 如 


因此 ， 对 身体 活动 的 自动 情感 评 


的 可 能 
了 内 隐 态 


tem, 


系 
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1 


系 
2 


度 是 推 


2007). APE 模型 在 这 上 


情境 
线索 


图 1 


突出 自动 情 


理 评价 过 程 ， 以 对 真 值 “ 即 价值 和 信和 : 
被 用 来 解释 自动 情感 评价 与 TPB 的 态度 构 念 之 间 的 联系 。 


身体 活 

DEEN, 自动 情 

I 
快乐/ 不 快乐 交 
态度 

主观 规范 
主观 行为 控制 


介 可 能 会 
性 。 另 外 ， 联 想 - 命 题 评价 CAssociative-Propositional Evaluation, APE) 模型 主要 
度 转 变 为 外 显 态度 的 心理 机 制 ， 
理 评价 过 程 CGawronski & Bodenhausen, 2006). 
结 唤起 ， 外 显 态 


` 费 力 的 进行 ， 


情感 体验 )。 实 际 上 ， 


同 于 熟 虑 
不 需要 有 


青 细 化 ， 既 可 以 影响 自动 动机 比如 无 意识 的 促进 目标 追求 )， 也 可 以 影响 熟 
期 或 情感 态度 ;Kiviniemi, Voss-Humke, & Seifert, 2007)， 而 这 些 
的 上 游 因素 。 

结 了 如 何在 双 系 统 体系 内 将 情境 线索 、 自 动情 感 评价 与 身体 活动 联系 起 来 的 概 
首 人 们 的 经 验 随 时 间 的 推移 不 断 积 累 的 过 程 
的 概念 和 不 同 的 情感 体验 之 间 的 特殊 联系 来 创造 记忆 ， 
接触 到 激活 身体 活动 概念 的 线索 时 ， 相 关 的 记忆 被 激活 ， 


， 个 人 


这 些 记忆 的 特征 组 成 


在 没有 必 


产生 一 种 直觉 使 得 平衡 偏 
RA 种 冲动 ， 从 而 增加 不 活跃 的 个 体 


它 认 为 大 脑 存在 两 种 信和 
内 隐 态 度 是 联想 评价 过 程 ， 由 记 
念 ) 的 确认 作为 特征 


> 接近 -回避 冲动 


意向 一 > 规划 


感 评 价 作用 的 号 体 活动 双 系 统 概念 模型 


资料 来 源 : Conroy 和 Berry (2017) 


名 或 偏离 号 体 活动 。 


参与 锻炼 
分 析 


昌 处 理 方式 ， 即 联想 和 推 


忆 中 的 联 
( 叶 娜 && 


身体 活动 
(数量 与 质量 ) 


此 外 ， 经 常 锻炼 者 比 不 经 常 锻炼 者 拥有 更 积极 的 自动 情感 评价 ， 而 积极 的 自动 情感 评 


价 具有 对 未 来 锻炼 行为 的 预测 能 
情感 评价 后 ， 锻 和 炼 行为 会 出 现 即 刻 差 异 ， 而 另 有 看 


力 。Antoniewicz 和 Brand (2016b) HJ% 


AKH, 


改变 自动 


究 采 用 了 1 周 (Calitri et al., 2009) 、3 


个 月 (Antoniewicz & Brand, 2016a) 或 6 个 月 的 时 间 范 畴 (Endrighi et al., 2016) ， 同 样 发 


现 自动 情感 评价 与 短期 和 长 期 锻炼 行为 都 有 着 联系 。 并 且 ， 自 动情 感 评价 越 积 极 的 锻炼 
越 有 可 能 达到 理想 的 锻炼 频率 (Brand & Antoniewicz, 2016)。 另 外 ， 现 有 研究 为 将 自动 情 
感 评价 作为 目标 的 行为 改变 干预 的 可 行 性 提供 了 初步 建议 (Antoniewicz & Brand, 2014; 
Calitri et al., 2009; Endrighi et al., 2016) 。 但 在 将 自动 情感 评价 作为 目标 进行 锻炼 干预 之 前 ， 
首先 要 明确 自动 情感 评价 与 锻炼 行为 之 间 是 否 具 有 因果 关系 。 而 目前 仅 有 一 项 研究 证 实 ] 
两 者 之 间 确 实 存 在 着 因果 关系 (Antoniewicz & Brand, 2016b) 。 还 有 研究 报道 了 自动 情感 
评价 和 自我 报告 的 锻炼 量 之 间 存 在 正 相 关 CBluemke, Brand, Schweizer, & Kahlert, 2010; 
Chevance, Caudroit, Romain, & Boiche, 2017) . 
22 ”身体 活动 双 系统 模型 中 系统 2 的 构建 

早期 的 锻炼 行为 理论 是 基于 信息 加 工 范式 的 认 知 主义 理论 ， 它 们 出 自 于 同一 元 理论 体 
系 ， 关 注 的 是 意向 和 规划 这 样 的 认 知 构 念 ， 而 忽略 了 情感 构 念 的 动机 属性 以 及 自动 化 过 程 
的 重要 性 CEkkekakis, 2017). Biddle 等 人 (2007) 建议 将 锻炼 行为 理论 分 为 五 类 : 第 一 ， 
信念 -态度 理论 关注 的 是 行为 意向 的 认 知 前 提 ， 即 某 人 准备 为 实现 目标 行为 而 投入 的 努力 ， 
比如 TPB。 第 二 ， 能 力 基 础 理论 主要 以 自我 效能 构 念 为 例 ， 自 我 效能 被 定义 为 个 人 对 他 人 
组 织 和 执行 达到 指定 类 型 的 表现 所 需 的 行动 过 程 的 能 力 的 判断 。 第 三 ， 控 制 基 础 理论 认为 
个 人 有 体验 自己 作为 行为 的 发 起 者 和 调节 者 的 内 在 欲望 或 目标 ， 比 如 自我 决定 理论 将 这 种 
渴望 归 因 于 对 自我 决定 的 基本 心理 需求 。 第 四 ， 以 跨 理 论 模 型 为 代表 的 阶段 模型 则 将 行为 
改变 概念 化 为 使 一 个 人 更 接近 所 设想 的 目标 的 过 程 。 第 五 ， 以 健康 行动 过 程 取向 理论 为 代 
表 的 混合 模型 将 阶段 概念 与 动机 变量 相 结 合 ， 从 而 预测 意向 ， 并 添加 了 决策 后 变量 (比如 
执行 意向 )。 这 些 理论 模型 定义 了 研究 中 的 变量 ,提供 了 变量 之 间 的 结构 ， 描 述 了 应 该 如 何 
操作 变量 的 假设 ， 允 许 研究 的 复制 和 泛 化 ， 为 假设 的 检验 和 证 伪 提 供 了 对 话 框架 。 随 后 在 
研究 中 发 现 ， 这 些 理论 都 有 各 自 的 优点 与 缺点 ， 没 有 哪 一 个 理论 能 够 全 面 且 便于 操作 地 对 
锻炼 行为 做 出 解释 、 预 测 ， 并 能 有 效 地 采取 干预 措施 ( 沈 梦 英 ， 毛 志雄 ， 张 一 民 ，2010)。 
鉴于 这 些 理论 本 身 存在 的 一 些 不 足 和 待 改 进 之 处 ， 不 少 国内 外 研究 者 尝试 将 多 种 理论 结合 
起 来 构建 一 个 整合 模型 ， 以 期 提高 模型 对 锻炼 行为 的 解释 、 预 测 能 力 ( 冯 玉 娟 ， 毛 志雄 ， 
2014; Hagger & Chatzisarantis, 2014). 
2.3 ”身体 活动 双 系统 模型 的 控制 原则 

在 模型 的 控制 方面 ， 基 于 Strack 和 Deutsch (2004) 建议 的 熟 虑 -冲动 模型 
(Reflective-Impulsive Model, RIM), Bluemke 等 人 (2010) 以 跑步 为 例 ， 提 出 了 基于 竞争 
空 制 的 身体 活动 RIM。 它 认为 如 果 熟 虑 和 冲动 系统 的 方向 是 一 致 的 ， 那 么 两 个 系统 就 会 增 
强 跑 步 的 执行 ， 如 果 两 个 系统 的 方向 是 冲突 的 ， 那 么 它们 就 会 竞争 控制 跑步 行为 。 而 Aarts 
等 人 (1997) 早 前 提出 了 基于 协调 控制 的 身体 活动 与 习惯 养 成 模型 ， 将 主要 涉及 到 的 对 过 
往 锻炼 体验 记忆 的 认 知 过 程 整合 到 一 个 锻炼 习惯 养 成 模型 中 。 它 假设 锻炼 的 起 始 在 很 大 程 
度 上 是 由 熟 虑 决策 决定 的 ， 随 着 不 断 的 重复 和 更 多 的 练习 ， 最 终 形成 了 一 种 习惯 。 此 外 ， 
Rhodes 和 Rebar (2018) 新 近 提 出 基于 层级 控制 的 双 系 统 模型 ， 它 认为 像 身 体 活动 这 样 的 
杂 行 为 是 分 层 描述 每 个 行动 的 , 这 些 行动 是 由 较 低 层级 的 子 行动 (sub-actions ) 所 组 成 的 ， 
行动 之 间 存 在 熟 虑 转换 ， 而 其 子 行动 之 间 又 存在 自动 转换 。 
2.3.1 ”竞争 控制 

RIM 强调 了 与 社会 行为 的 联系 ， 将 熟 虑 和 冲动 看 作 是 行为 的 过 程 (Strack & Deutsch, 
2004)。 它 关注 的 是 由 线索 或 刺激 激活 的 评价 和 语义 联系 。 这 些 联 系 是 在 接近 或 逃避 导向 的 
冲动 系统 中 对 刺激 情感 反应 的 基础 。 熟 虑 系统 将 这 些 自动 联想 阐述 为 命题 ， 联 想 的 真 值 是 
经 过 熟 虑 后 确定 的 。 它 可 以 克服 习惯 性 反应 ， 或 在 习惯 失效 的 新 情况 下 ， 将 行动 规划 整合 
到 一 起 。RIM 假定 信息 在 两 个 分 离 的 系统 中 并 行 加 工 ， 经 过 多 种 渠道 相互 联系 。 熟 虑 系统 
的 作用 路 径 : 行为 选择 一 形成 行为 意向 一 启动 行为 计划 一 行为 意向 有 助 于 执行 行为 ， 训 动 
系统 的 作用 路 径 : 知觉 到 刺激 一 激发 冲动 系统 网 络 中 的 更 多 节点 一 激活 行为 模式 〈 许 昭 ， 


志雄 ，2015)。 依 据 RIM， 没 有 一 个 过 程 是 完全 熟 虑 或 冲动 的 ， 两 个 系统 相互 作用 影响 行 
Ne RE RIM 与 APE 模型 分 享 某 些 重要 的 假设 ， 两 个 模型 之 间 也 有 明显 的 区 别 。 例 如 ， 
RIM 假设 这 两 个 系统 是 同时 被 独立 调用 的 。 而 在 APE 模型 的 默认 干预 逻辑 中 ， 内 隐 联 想 为 
进一步 的 命题 加 工 提 供 了 默认 值 ， 使 所 有 的 系统 2 加 工 都 依赖 于 初始 的 系统 1 输入 (Evans 
& Stanovich, 2013). 

Bluemke “A. (2010) 以 跑步 为 例 ， 认 为 如 果 熟 虑 系统 和 冲动 系统 的 方向 是 一 致 的 ， 
人 们 充分 了 解 跑步 的 益处 ， 并 且 跑 步 与 正 效 价 情感 形成 情感 联系 ， 那 么 两 个 系统 就 会 增强 
跑步 的 执行 ， 如 果 两 个 系统 的 方向 是 冲突 的 ， 人 们 充分 了 解 跑步 的 益处 ， 但 将 跑步 知觉 为 
不 快乐 的 ， 把 跑步 与 负 效 价 情感 形成 情感 联系 ， 那 么 两 个 系统 就 会 竞争 控制 跑步 行为 。 此 
外 ， 许 昭和 毛 志雄 (2015) 构建 了 由 10 个 变量 的 熟 虑 系统 和 1 个 变量 的 冲动 系统 组 成 的 身 
体 活动 RIM 模型 ， 经 模型 验证 发 现 ， 双 系统 对 身体 活动 的 影响 受 行为 习惯 性 (有 无 规律 运 
动 训 练 经 历 ) 的 调节 ， 行 为 习惯 性 越 强 ， 冲 动作 用 越 小 ， 反 之 越 大 ， 另 外 ， 双 系统 对 身体 
活动 的 影响 还 受 意志 品质 〈 执 行 熟 虑 系统 的 能 力 ) 的 调节 ， 意 志 品 质 越 高 ， 熟 虑 系统 对 身 
体 活动 的 影响 越 大 ， 反 之 冲动 系统 的 作用 更 大 ， 认 为 身体 活动 是 由 两 个 系统 共同 决定 的 。 
2.3.2 ”协调 控制 

Aarts & A. (1997) 提出 的 身体 活动 与 习惯 养 成 模型 ， 将 主要 涉及 过 往 锻炼 体验 记忆 的 
认 知 过 程 ( 对 锻炼 习惯 决定 因素 的 认识 ) 整合 到 一 个 锻炼 习惯 养 成 模型 中 (图 2)。 并 且 认 
为 该 模型 只 是 包括 社会 -人 口 、 生 物 和 遗传 因素 的 一 般 模式 中 的 一 部 分 ， 强 调 了 影响 身体 活 
动 的 心理 因素 ( 近 端 效应 )。 身 体 活动 与 习惯 养 成 模型 假设 锻炼 的 起 始 在 很 大 程度 上 是 由 熟 
虑 决策 决定 的 ， 比 如 态度 、 主 观 社会 规范 、 行 为 控制 和 运动 经 验 〈 图 2 上 半 部 分 描述 了 起 
始 的 熟 虑 决策 过 程 ); 随 着 不 断 的 重复 和 更 多 的 练习 ， 锻 炼 的 基本 决策 过 程 逐 步 从 启发 式 的 
决策 过 程 转变 为 自动 化 的 决策 过 程 ， 最 终 形成 了 一 种 不 再 需要 理性 思考 指导 的 习惯 (图 2 
左下 角 的 粗 体 箭头 表示 习惯 养 成 过 程 的 反馈 循环 )。 
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图 2 身体 活动 与 习惯 养 成 模型 
资料 来 源 : Aarts et al. (1997) 


然而 理性 行为 和 习惯 可 以 看 作 一 个 统一 体 的 两 端 。 在 目标 定向 行为 既 不 完全 是 自动 化 
的 ， 也 不 完全 是 熟 虑 的 情况 下 ， 决 策 者 可 以 使 用 类 似 于 启发 式 决策 的 方法 来 进行 选择 。 可 
以 将 这 种 启发 式 的 决策 过 程 设想 为 一 种 认 知 捷径 。 例 如 , 不 仔细 检查 所 有 执行 行为 的 后 果 ， 
而 是 迅速 考虑 行为 的 最 突出 优势 , 以 明确 它 的 可 行 性 , 或 简单 地 确认 能 否 执 行 相同 的 行为 。 
随 着 练习 的 增加 ， 熟 虑 的 决策 过 程 可 能 会 通过 对 过 去 行为 经 历 的 记忆 逐步 转变 为 更 具 启 发 
性 的 过 程 ( 认 知 捷径 的 发 展 )。 一 旦 这 些 结果 储存 在 记忆 中 , 并 能 够 很 容易 从 记忆 中 被 检索 ， 
就 不 再 需要 反复 思考 。 启 发 式 处 理 的 核心 特征 就 是 从 记忆 中 检索 过 去 的 决策 过 程 中 得 出 的 
结论 或 作出 的 决定 。 在 身体 活动 与 习惯 养 成 模型 中 ， 这 种 学 习 表 现 为 过 去 行为 对 记忆 的 反 
馈 以 及 运动 事件 的 记忆 对 感知 的 影响 。 

2.3.3 ”层级 控制 

身体 活动 并 不 是 一 种 简单 的 行为 ， 而 是 由 许多 子 行动 组 成 的 各 种 复杂 行为 的 组 合 
(Rhodes & Rebar, 2018)。 虽 然 习 惯 与 熟 虑 的 动机 可 能 是 一 种 全 或 无 的 现象 ( 即 一 种 影响 只 
能 解释 某 一 时 刻 的 行为 )， 但 这 不 一 定 适 用 于 长 时 间 (30. 分 钟 以 上 ) 的 身体 活动 。Gardner 
等 人 (2016) 基于 Cooper 和 Shallice (20060 的 理论 ， 从 行动 -阶段 的 角度 概述 了 这 一 过 程 ， 
认为 身体 活动 这 样 的 复杂 行为 是 分 层 描述 每 个 行动 的 , 这 些 行动 由 较 低 层级 的 子 行动 组 成 。 
这 种 理解 身体 活动 的 方式 允许 各 种 行动 序列 模块 化 (chunked) 为 自动 调节 的 行为 (Graybiel, 
2008)。 如 图 3 所 示 ， 一 个 刚 开 始 跑步 锻炼 的 新 手 需要 预先 仔细 考虑 身体 活动 的 各 个 方面 ， 
从 准备 决策 〈 时 间 、 服 装 等 的 选择 ) 到 执行 方面 〈 路 线 、 跑 步 速度 、 节 奏 和 风格 )。 随 着 时 


间 的 推移 ， 通 过 简单 的 子 行动 《跑步 风格 ) 的 技能 获取 ， 或 更 高 层级 决策 与 行动 的 习惯 养 
成 ， 这 些 方面 中 的 某 一 部 分 可 能 会 形成 自动 化 前往 目 的 地 ， 决 定 要 做 的 活动 ;。 随 后 当 锻 
炼 者 形成 将 前 一 个 子 行动 的 结束 与 下 一 个 子 行动 的 开始 相 联系 的 记忆 时 ， 每 个 子 行动 将 不 
再 需要 思考 ， 而 是 由 情境 触发 的 接近 倾向 自动 提示 行动 。 
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图 3 熟 虑 与 习惯 促进 身体 活动 之 间 的 建议 转换 
资料 来 源 : Rhodes 和 Rebar (2018) 
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采用 这 种 方法 来 理解 锻炼 习惯 的 形成 需要 识别 行为 序列 的 要 素 。 考 虑 到 锻炼 决策 〈 做 
出 锻炼 的 决定 ) 是 影响 锻炼 行为 的 重要 因素 ，Verplanken 和 Melkevik (2008) 提出 了 一 种 
更 为 可 行 的 方法 , 即 在 身体 活动 的 启动 阶段 测量 习惯 .随后 Gardner 和 同事 (Gardner, Phillips, 
& Judah, 2016; Phillips & Gardner, 2016 ) 提 出 启动 /选择 阶段 (决定 对 其 他 潜在 刺激 采取 行动 》 
与 执行 阶段 (后 续 的 有 序 行动 ) 可 能 是 对 复杂 身体 活动 序列 概念 化 的 有 效 途径 。Kaushal 等 
A (2017) 也 认为 准备 阶段 〈 身 体 活 动 前 的 行为 和 启动 ) 与 执行 阶段 可 能 是 理解 个 人 锻炼 
习惯 的 有 效 途径 。 虽 然 启动 阶段 与 执行 阶段 都 可 能 成 为 习惯 ， 但 启动 阶段 对 于 理解 有 规律 
的 身体 活动 可 能 更 重要 ， 因 为 它 代 表 了 之 前 的 决策 过 程 。 相 比 之 下 ， 执 行 阶段 可 以 解释 身 
体 活 动 的 持续 时 间或 努力 程度 ， 但 似乎 不 能 解释 身体 活动 被 反复 选择 和 启动 的 原因 
(Gardner et al., 2016)。 因 此 ， 上 述 研究 表明 启动 阶段 可 能 才 是 身体 活动 参与 频率 的 主导 预 
WAF. 

总 之 ， 在 模型 的 控制 方面 ， 上 述 三 个 模型 所 建议 的 竞争 、 协 调 与 层级 控制 的 原则 ， 为 
系统 1 与 系统 2 在 复杂 身体 活动 中 执行 有 序 控制 提供 了 合理 解释 。 另 外 ， 协 调控 制 是 一 种 
序列 加 工 的 方式 ， 而 竞争 控制 是 双 系统 并 行 加 工 的 方式 。 鉴 于 竞争 控制 并 不 符合 人 类 认 知 
加 工 的 经 济 、 快 捷 原 则 ， 在 心理 学 上 不 太 可 能 实现 〈 艾 炎 ， 胡 竹 苹 ，2018)。 因 此 ， 相 较 于 
RIM 提出 的 竞争 控制 ， 身 体 活动 更 可 能 是 一 种 相互 协作 、 分 层 执行 的 复杂 行动 组 合 。 


3 强化 学 习 视角 下 的 双 系 统 模型 


近年 来 机 器 学 习 领 域 的 计算 RL 理论 对 心理 学 和 神经 科学 产生 了 持久 而 深远 的 影响 
(Botvinick, Niv, & Barto, 2009; Botvinick & Weinstein, 2014). BJA RL 最 初 被 视 为 特定 计算 
技术 的 存储 库 ， 但 它 已 逐步 发 展 成 为 用 于 思考 人 与 动物 的 动机 行为 和 学 习 过 程 的 一 个 通用 
框架 。 这 些 影响 最 初 体 现在 对 经 典 条 件 反 射 和 操作 条 件 反射 的 研究 中 ， 随 后 扩展 到 运用 时 
序 差 分 学 习 范 式 解 释 中 脑 多 巴 胺 神经 元 活动 的 一 个 框架 。 目 前 基于 RL 的 理论 已 被 用 于 解 
决 各 类 问题 。 因 此 ， 有 必要 从 RL 的 角度 分 析 双 系统 模型 的 构建 与 控制 问题 。 在 模型 的 构 
建 方面 , 基于 认 知 神经 科学 的 观点 , 无 模型 (model-free, MF ) 和 基于 模型 (model-based, MB) 
的 RL 分 别 表 示 双 系统 的 系统 1 与 系统 2。 在 模型 的 控制 方面 ，Dyna 协作 架构 假设 MF 受 
到 MB 控制 ， 建 议 通 过 目标 控制 不 断 影 响 习 惯 过 程 ， 促 进 与 目标 一 致 的 习惯 养 成 。 另 外 ， 
分 层 RL Chierarchical RL, HRL) 假设 MF 与 MB 控制 的 组 合 方式 应 该 是 任意 的 ， 这 进一步 
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扩展 了 身体 活动 双 系 统 模型 的 层级 控制 机 制 。 并 且 ， MF 的 目标 选择 为 锻炼 习惯 养 成 的 重要 
性 提供 了 依据 ， 有 强烈 锻炼 习惯 的 人 会 优先 考虑 他 们 熟悉 的 行为 方式 。 
3.1 ”强化 学 习 概 述 

RL 是 指 智能 体 (agent) 在 与 环境 的 连续 互动 过 程 中 学 习 最 优 行动 策略 的 机 器 学 习 问 题 
以 及 解决 这 类 问题 的 方法 (Sutton & Barto, 2018)。 在 RL 任务 中 有 两 个 互动 的 对 象 : 智能 
体 与 环境 。 一 般 而 言 ， 学 习 者 或 决策 者 被 称 为 智能 体 ， 它 感知 外 界 环境 的 状态 和 反馈 的 奖 
D, 并 进行 学 习 与 决策 。 智能 体 泛 指 人 、 动 物 以 及 机 器 人 和 自动 驾驶 汽车 等 人 工 智 能 应 用 。 
环境 是 指 智能 体外 部 的 所 有 事物 ， 它 受到 智能 体 行 为 的 影响 而 发 生 状态 变化 ， 并 反馈 给 智 
能 体 对 应 的 奖励 。 如 图 4 所 示 , 在 每 一 个 时 间 步 t， 智 能 体 从 环境 中 观察 到 一 个 状态 Si 与 一 
个 奖励 Re， 采 取 一 个 行动 Al。 环 境 根据 智能 体 的 决策 行动 决定 下 一 步 tt1 的 状态 Se 与 奖 
励 Ru1。 学 习 的 策略 表示 成 给 定 状态 下 采取 的 行动 。 智 能 体 的 目标 不 是 短期 奖励 的 最 大 化 ， 
而 是 长 期 累积 奖励 的 最 大 化 。 
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图 4 强化 学 习 中 智能 体 - 环 境 的 互动 
资料 来 源 : Sutton 和 Barto (2018) 


3.2 ”强化 学 习 视角 下 双 系 统 模型 的 构建 

RL 的 核心 问题 是 对 状态 -行动 配对 (预期 贴现 回报 ) 的 值 估计 , 用 以 指导 行动 的 选择 。 
一 般 而 言 ， 解 决 这 个 问题 有 两 种 策略 : 一 种 是 根据 经 验 进 行 值 估计 的 MF 策略 ， 另 一 种 是 
根据 环境 模型 (奖励 和 转换 函数 ) 学 习 的 MB 策略 ， 随 后 用 它 来 规划 最 优 策略 。MEF 策略 由 
习惯 系统 执行 , MB 策略 由 目标 定向 系统 执行 (Daw, Markman, & Otto, 2005; Dolan & Dayan, 
2013). 

从 心理 学 的 角度 看 ，MF-RL 是 桑 代 克 的 效应 定律 的 衍生 物 ， 个 体 依 据 这 个 定律 习惯 性 
重复 过 去 强化 过 的 行为 《Gershman, Joel, & Dayan, 2014)。 它 不 依赖 于 环境 的 内 部 模型 ， 相 
反 ， 配 对 值 以 缓存 格式 〈 比 如 查找 表 ) 存储 ， 人 允许 对 其 快速 检索 。 这 些 值 可 以 使 用 简单 的 
试 错 驱 动 的 学 习 规则 (比如 时 序 差分 学 习 范式 ) 进行 增 量 更 新 〈Sutton & Barto, 2018). MF 
策略 的 主要 缺点 是 缺乏 灵活 性 : 当 环 境 或 任务 发 生 改 变 时 , 需要 重新 学 习 整 个 缓存 值 的 集 。 
由 于 这 种 不 灵活 重复 导致 MF 策略 习惯 化 。 因 此 ，MF-RL 从 理论 上 捕获 了 习惯 的 关键 属性 
一 一 对 奖励 变化 的 不 敏感 。 

相 比 之 下 ，MB-RL 是 托 尔 曼 的 认 知 地 图 概念 的 衍生 物 。MB 策略 以 内 部 模型 的 形式 表 
示 其 认 知 ， 当 发 生 改变 时 ， 可 以 在 局 部 对 其 进行 修改 〈 只 需 修 改 模型 的 一 部 分 )。 因 此 ， 与 
MF 策略 不 同 ，MB 策略 不 需要 缓存 值 。 它 可 以 在 不 重新 学 习 整 个 模型 的 情况 下 ， 有 灵活 地 修 
改 策略 以 追求 目标 。 然 而 执行 MB 策略 不 可 避免 地 比 MF 策略 需要 更 多 的 时 间 和 资源 (Daw 
et al., 2005; Keramati, Dezfouli, & Piray, 2011)。 另 外 ，TPB 将 客观 环境 的 作用 《比如 来 自 丁 
侦 、 亲 友 、 榜 样 的 社会 支持 与 锻炼 的 物质 条 件 ) 体现 在 主观 规范 与 主观 行为 控制 两 个 因素 


cu 


中 。 它 被 认为 联通 了 个 体 与 环境 ， 将 客观 社会 环境 与 物质 条 件 等 因素 对 个 体 的 约束 转变 为 
个 体 的 主观 感知 ， 解 释 了 客观 环境 因素 对 行为 的 作用 机 制 〈 沈 梦 英 等 ，2010)。 这 类 似 于 
MB-RL 中 内 部 模型 的 作用 。 
3.3 ”强化 学 习 视角 下 双 系 统 模型 的 控制 机 制 

当 学 习 一 个 新 的 不 确定 任务 时 ， 个 体 应 该 仔细 考虑 行动 的 后 果 (MB )， 但 是 在 对 一 个 
稳定 的 任务 进行 长 时 间 的 练习 之 后 ， 个 体 通 常 可 以 通过 重复 同一 个 任务 来 更 快 地 获得 相同 
的 结果 (MF)。 尽 管 在 最 初 的 双 系 统 RL 中 假设 了 一 种 竞争 的 赢 者 通 吃 机 制 ， 认 为 MF 或 
MB 系统 获得 对 行为 的 控制 是 取决 于 哪个 系统 提供 了 更 可 靠 的 行动 值 估计 (Daw et al., 2005; 
Daw, Gershman, Seymour, Dayan, & Dolan, 2011)。 然 而 RL 模型 调用 的 这 种 并 行 处 理 作为 
种 昂贵 的 中 央 处 理 ， 几 乎 随时 准备 执行 规划 与 熟 虑 ， 因 而 在 心理 学 上 不 太 可 能 实现 (Evans 
& Stanovich, 2013 )。 后 续 研 究 更 倾向 于 一 种 动态 整合 ， 两 个 系统 都 根据 它们 的 相对 可 靠 性 
来 计算 行动 值 (Lee, Shimojo, & O’Doherty, 2014)。 因 此 ， 结 合 MF 和 MB 的 模型 不 是 简单 
地 假设 行为 是 习惯 或 目标 定向 的 ， 而 是 在 不 同 的 行为 控制 模型 的 互动 中 探索 如 何 产生 适应 
行为 。 
3.3.4 Dyna 协作 架构 

除 整合 独立 计算 的 行动 值 以 外 ， 一 些 RL 模型 还 建议 了 MB 规划 对 MF 学 习 的 直接 影 
响 。 例 如 ，Gershman 等 人 《〈2014) 发 现在 两 步 决策 任务 中 ， 受 试 者 在 独立 学 习 了 第 二 步 奖 
励 后 ， 在 第 一 步 任务 中 改变 了 他 们 的 选择 偏好 (被 认为 反映 了 MF 习惯 处 理 )。 为 了 解释 这 
一 发 现 ，Gershman 等 人 提出 MB 系统 模拟 了 一 个 完整 的 两 步 决策 过 程 ，MF 系统 可 以 从 模 
拟 中 学 习 。 并 且 ， 他 们 还 引入 了 一 个 能 够 有 效 整 合 MF 与 MB 系统 的 Dyna 架构 。 如 图 5 
所 示 ，Dyna 架构 中 行动 完全 由 MF 系统 控制 (允许 以 最 小 的 计算 成 本 在 线 进行 决策 )，MB 
系统 通过 离线 的 方式 训练 MF 系统 〈 在 两 段 真实 体验 之 间 )， 可 以 对 行动 产生 间接 影响 。 因 
Ie, Dyna 架构 中 使 用 模拟 体验 蔡 代 了 部 分 真实 体验 。 具 体 而 言 ，MB 系统 回放 经 历 的 状态 - 
行动 配对 ， 然 后 在 习 得 的 环境 模型 基础 上 模拟 一 次 转换 和 奖励 。 随 后 MF 系统 从 这 些 模拟 


轨迹 中 进行 学 习 ， 如 同 从 真实 体验 中 学 习 一 样 。 


5 Dyna 协作 架构 
资料 来 源 : Gershman et al. (2014) 


Dyna 架构 假设 熟 虑 的 学 习 规划 能 够 更 新 与 改进 习惯 学 习 的 值 估 计 ， 通 过 目标 影响 习惯 
学 习 表 示 的 行动 值 ， 促 进 与 目标 一 致 的 习惯 养 成 。 因 此 ， 不 同 于 我 们 通常 认为 的 习惯 是 MF 
学 习 结 果 的 RL 假设 , 习惯 是 习 得 的 行为 模式 , 受到 MB 控制 CDezfouli & Balleine, 2012). 
这 可 能 是 由 于 标准 的 两 步 RL 决策 任务 无 法 有 效 捕获 对 结果 不 敏感 的 习惯 过 程 ， 而 在 这 些 
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任务 中 的 MF 学 习 可 能 会 反映 其 他 刺激 驱动 的 策略 ， 比 如 简单 的 启发 式 决策 。 今 后 对 MF 
学 习 的 研究 可 能 需要 开发 新 的 实验 任务 ， 以 便 更 有 效 地 捕获 习惯 过 程 。 
3.32 ”分 层 强 化 学 习 

HRL 的 主要 目标 是 将 复杂 的 问题 分 解 成 多 个 小 问题 ， 通 过 分 别 解决 小 问题 从 而 达到 解 
决 原 问 题 的 目的 〈 周 文 吉 ， 俞 扬 ，2017)。HRL 的 核心 思想 是 引入 抽象 机 制 对 学 习 任 务 进行 
Dio Sutton 等 人 〈1999) 的 研究 中 ， 学 习 任务 被 抽象 为 若干 选择 项 〈options)， 并 将 这 些 
选择 项 作为 一 个 特定 的 行动 加 入 到 原来 的 行动 集中 。 一 个 选择 项 可 以 理解 为 要 完成 菜子 目 
标 而 按 一 定 策略 执行 的 行动 序列 。 选 择 项 可 以 由 设计 者 根据 专家 知识 预先 确定 ， 利 用 先 验 
知识 加 速 从 学 习 到 相关 任务 的 迁移 ， 也 可 以 通过 MF 方法 学 习 (Botvinick et al., 2009)， 或 
重复 连接 到 一 个 模块 化 的 行动 序列 中 (Dezfouli & Balleine, 2012)。 因 此 ，HRL 可 以 划分 为 
MF-HRL 和 MB-HRL。 

HRL 理论 假设 将 单个 动作 串联 起 来 ， 并 将 序列 作为 一 个 反应 单元 或 模块 可 能 是 有 利 的 
(Botvinick & Weinstein, 2014)。 因 为 通过 模型 化 方式 执行 的 快速 反应 会 带 来 更 多 的 平均 回 
报 (Keramati et al., 2011)。 任 何 层级 的 决策 原则 上 都 可 以 通过 MF 或 MB (或 两 者 任意 组 合 ) 
的 方式 执行 。 例 如 ， 可 以 通过 目标 控制 在 较 高 层级 上 选择 先前 习 得 的 行动 序列 来 执行 期 望 
的 目标 CDezfouli & Balleine, 2013), 也 可 以 执行 对 MB 规划 的 MF 控制 。Cushman 和 Morris 
(2015) 研究 表明 ， 个 人 通过 习惯 控制 来 解决 目标 选择 过 程 ， 同 时 利用 规划 实现 被 选择 的 
目标 。 如 图 6 所 示 ， 左 图 描述 了 一 个 有 大 量 可 能 的 未 来 行动 序列 树 的 程式 化 选择 问题 ， 它 
为 MB 规划 提供 了 一 个 困难 的 搜索 问题 。 右 图 描述 的 是 Cushman 和 Morris (2015) 的 假设 ， 
MB 规划 可 以 通过 初始 的 MF 进行 目标 选择 来 简化 步骤 〈 三 个 连续 实 线 箭头 )。 这 些 模型 不 
是 互相 排斥 的 ， 而 是 基于 一 个 共同 的 假设 : 个 人 会 灵活 地 运用 习惯 或 目标 控制 ， 跨 层级 组 
合 行为 以 适应 特定 任务 的 需求 。 


p ES 
2218 OO NEN 
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图 6 基于 模型 的 搜索 与 无 模型 的 目标 选择 
资料 来 源 : Daw (2015) 


- 


这 种 MF 的 目标 选择 也 符合 个 人 一 贯 的 行为 方式 。 出 于 习惯 ， 头 脑 中 会 减少 已 有 的 刻 
意 反 应 ， 甚 至 在 需要 作出 明确 决策 时 也 会 减少 关注 。 例 如 ， 一 个 多 属性 选择 任务 涉及 一 系 
列 出 行 方式 的 决策 ， 有 较 强 骑 自 行车 或 开车 习惯 的 人 进行 了 有 限 的 信息 检索 ， 只 考虑 较 少 
的 出 行 方案 ， 并 偏向 于 他 们 习惯 的 选择 CAarts, Verplanken, & Van Knippenberg, 1997; Betsch 
et al., 2001; Verplanken, Aarts, & Van Knippenberg, 1997) 。 从 本 质 上 讲 ， 有 强烈 习惯 的 人 处 理 
信息 的 方式 减少 了 他 们 考虑 采取 其 他 行动 的 可 能 性 。 

3.4 强化 学 习 视角 下 锻炼 者 -体育 环境 的 互动 模式 

从 RL 的 角度 看 ， 锻 炼 者 通过 锻炼 行为 作用 于 体育 环境 ， 而 体育 环境 又 依据 锻炼 者 的 
行为 变化 进行 状态 更 新 ， 并 反馈 给 锻炼 者 相应 的 奖励 ， 促 使 锻炼 者 不 断 调 整 锻 炼 行为 ， 以 
期 累积 获得 最 高 回报 (图 7)。 首 先 ， 锻 炼 者 可 以 通过 双 系 统 控制 自身 的 身体 活动 : MF A 
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(AR 1) 受到 情境 线索 提示 , 激活 包括 自动 情感 评价 在 内 的 锻炼 习惯 行为 ; MB RA CR 
统 2) 通过 主观 规范 与 主观 行为 控制 将 客观 体育 环境 的 作用 转变 为 锻炼 者 的 主观 感知 ( 即 内 
部 模型 ， 未 画 出 )。 系 统 2 的 加 工 依赖 于 系统 1 的 输入 ， 比 如 态度 的 情感 成 分 受到 自动 情感 
评价 的 影响 〈 见 图 7 由 系统 1 指向 系统 2 的 虚线 箭头 ); 通过 系统 2 对 系统 1 的 作用 ， 促 进 
与 目标 一 致 的 习惯 养 成 〈 见 图 7 由 系统 2 指向 系统 1 的 虚线 箭头 )。 此 外 ， 双 系统 是 以 一 种 

相互 协作 的 形式 对 身体 活动 执行 分 层 控制 的 。 例 如 ， 在 开始 一 项 新 的 身体 活动 或 在 不 同 子 

行动 之 间 进 行 转换 时 , 锻炼 者 更 多 依赖 于 系统 2, 但 在 特定 情境 下 重复 已 习 得 的 锻炼 习惯 行 

为 时 启用 系统 1， 从 而 达到 节省 资源 、 提 高 效率 的 目的 。 

其 次 ， 特 定 的 体育 环境 能 够 自动 激活 锻炼 习惯 行为 ， 被 认为 是 锻炼 习惯 自动 化 的 情境 

线索 。 最 近 有 学 者 将 体育 环境 划分 为 建成 环境 、 社 会 环境 和 信息 通讯 环境 ( 张 展 嘉 等 , 2018)。 
相关 研究 表明 ， 从 城市 的 步行 性 、 锻 炼 者 的 社交 网 络 以 及 智能 手机 使 用 的 信息 反馈 这 三 个 

方面 来 看 ， 体 育 环境 能 够 显著 影响 锻炼 行为 (Althoff et al., 2017; Aral & Nicolaides, 2017). 

另外 ， 对 锻炼 行为 的 奖励 通常 可 以 划分 为 内 部 和 外 部 奖励 。 区 别 于 外 部 奖励 (报酬 )， 内 部 

奖励 被 认为 是 情绪 反应 和 随后 对 身体 活动 的 情感 判断 ， 代 表 了 个 人 对 情感 体验 的 期 望 ， 有 

助 于 形成 更 强烈 的 习惯 ,比如 对 内 在 调节 、 享 受 、 乐趣 和 愉悦 感 的 期 望 (Ekkekakis, Hargreaves, 
& Parfitt, 2013; Rhodes, Fiala, & Conner, 2009)。 外 部 奖励 又 与 主观 规范 有 关 ， 可 以 通过 现代 

媒介 化 社会 中 起 主导 作用 的 互联 网 和 智能 手机 等 新 媒介 的 积极 运用 来 实现 ( 张 业 安 , 2018). 


情境 线索 


7 强化 学 习 视角 下 锻炼 者 -体育 环境 的 互动 


此 外 ， 如 何在 RL 框架 内 运用 奖励 机 制 来 激发 个 人 的 锻炼 行为 ， 或 许 是 行为 改变 干预 
策略 设计 的 一 个 潜在 目标 。MF-RL 是 依据 候选 行动 的 奖励 历史 为 其 分 配 存储 值 的 ， 由 此 形 
成 类 似 于 刺激 -应 答 习 惯 的 存储 策略 。 可 以 认为 MF-RL 维护 了 一 个 查找 表 ， 包 含 对 每 个 状 
态 - 行 动 配对 的 (存储 值 ) 未 来 回报 的 预测 。 另 一 方面 , 内 隐 评 价 依赖 于 MF 学 习 过 程 (Kurdi， 
Gershman, & Banaji 2019)。 如 果 先 前 的 锻炼 体验 让 人 感觉 良好 ， 那 么 锻炼 的 概念 和 记忆 中 
的 情感 状态 之 间 就 会 产生 联想 。 随 后 ，MB-RL 将 这 些 自 动 联想 阐述 成 命题 (其 中 联想 的 真 
值 是 经 过 熟 虑 后 确定 的 )， 这 也 符合 APE 模型 的 假设 (Conroy & Berry, 2017)。 这 进一步 提 
示 我 们 ， 如 果 锻 炼 者 对 不 同 “ 情 境 线索 -锻炼 习惯 配对 ”的 相关 记忆 进行 主观 赋值 ， 那 么 同 
样 可 以 构建 一 个 内 部 的 锻炼 习惯 查找 表 ， 为 从 RL 角度 理解 个 人 锻炼 决策 的 动机 效应 提供 
了 新 的 见解 。 例 如 ， 当 个 人 拥有 对 锻炼 的 积极 熟 虑 评价 〈 比 如 对 健康 的 认识 、 个 人 能 力 的 
评价 、 可 及 社会 支持 的 感知 ) 和 愉快 的 情感 体验 〈 比 如 一 种 生理 兴奋 、 对 过 去 成 绩 的 自豪 
感 )， 因 而 对 身体 活动 的 赋值 较 高 ， 那 么 会 更 倾向 于 选择 积极 的 身体 活动 ; 相反 ， 如 果 个 人 
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40) 


对 喘 体 活动 持 有 负面 评价 ， 背 负 着 不 愉快 的 体验 《比如 身体 疼痛 、 对 运动 损伤 的 恐惧 、 由 
差 愧 带 来 的 情感 伤害 )， 那 么 会 更 倾向 于 久 化 不 动 的 生活 方式 ， 因 为 久 华 不 动 的 行为 也 会 伴 
有 愉快 的 体验 《比如 使 用 社交 软件 、 上 网 冲浪 、 看 电视 )， 导 致 对 入 坐 行为 的 赋值 高 于 持 有 
负面 评价 的 身体 活动 。 

总 之 ，RL 视角 下 锻炼 者 与 体育 环境 的 互动 模式 强调 了 两 者 之 间 的 连续 互动 ， 这 与 社会 
生态 系统 理论 既 有 联系 又 有 区 别 。 例 如 ， 由 Bronfenbrenner (1979) 提出 的 生态 系统 理论 ， 
作为 社会 生态 模型 早期 的 版 本 , 强调 了 个 体 的 发 展 能 套 于 相互 影响 的 一 系列 环境 系统 之 中 ， 
在 这 个 系统 中 环境 与 个 体 互相 作用 并 最 终 影响 个 体 的 发 展 。 研 究 者 最 近 通 过 系统 评述 身体 
活动 中 社会 认 知 与 建成 环境 的 互动 机 制 ， 发 现 两 者 只 在 休闲 体育 活动 中 存在 互动 (Rhodes, 
Saelens, & Sauvage-Mar, 2018)。 这 或 许 提示 我 们 ， 应 当 更 多 关注 休闲 体育 活动 领域 中 体育 
环境 对 锻炼 行为 的 影响 。 

4 JM 


吴 体 活动 的 双 系统 理论 认为 情境 线索 是 通过 快速 、 自 动 、 无 意识 的 认 知 过 程 〈 习 惯 ) 
影响 锻炼 行为 的 ， 这 不 仅 弥 补 了 早期 锻炼 行为 理论 模型 的 不 足 ， 也 在 体育 环境 与 个 人 锻炼 
习惯 的 养 成 之 间 构 建 了 一 条 合理 的 路 径 。 并 且 ， 在 双 系 统 模型 中 通过 自动 情感 评价 将 情境 
线索 与 身体 活动 联系 起 来 ， 可 以 更 好 地 解释 情感 启发 下 的 复杂 锻炼 行为 。 此 外 ， 号 体 活动 
可 能 是 一 种 相互 协作 、 分 层 执行 的 复杂 行动 组 合 。 习 惯 与 熟 虑 系统 交 蔡 控制 身体 活动 ， 从 
而 使 锻炼 者 与 体育 环境 之 间 实 现 连 续 的 互动 。RL 视角 下 的 Dyna 协作 架构 建议 习惯 养 成 依 
赖 于 目标 控制 ， 而 情境 线索 也 通过 自动 化 过 程 影 响 身 体 活动 ， 因 此 认为 身体 活动 的 自动 化 
过 程 (习惯 ) 可 能 是 整合 情境 线索 〈 环 境 ) 与 目标 定向 控制 过 程 〈 意 向 ) 的 关键 : 自动 化 
过 程 为 目标 定向 控制 提供 情境 线索 输入 ， 同 时 受到 目标 定向 控制 的 影响 。 最 后 提出 RL 视 
角 下 锻炼 者 -体育 环境 的 互动 模式 ， 以 期 为 今后 锻炼 行为 的 研究 提供 一 个 全 新 的 视角 。 
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Abstract: Exercise behavior theory based on rational decision making is regarded as the 


dominant framework for understanding physical activity, which provides valuable information on 
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cognitive constructs linked to physical activity. Behavioral interventions based on social 
ecological model have attracted much attention due to its better performance. However, recent 
studies show that exercise benefits cognition and current sport environment do not promote the 
formation of individual exercise habit, so it is necessary to explore a new theoretical framework 
to clarify the formation mechanism of individual exercise habit. The latest framework for 
explaining physical activity is dual system model, which promises to provide a broader 
perspective on motivation by considering the non-conscious and hedonic determinants of physical 
activity. Multiple representative dual system models associated with physical activity, on the one 
hand, from simple spontaneous path to context cues and exercise habit, and then to complex 
concept model highlighting the role of automatic affective evaluations, the construct of system 1 
is elaborated. Combined with system 2, which is concerned by exercise behavior theory, they 
offer a basis on how to build dual system model for physical activity. On the other hand, through 
analysis of the principle for competitive, cooperative and hierarchical control of dual systems, 
proposals are provided for the control of dual system model. Canonical reinforcement learning 
framework explains the principle for construct and control of dual system model: in terms of 
construct of the model, model-free and model-based reinforcement learning represent system 1 
and system 2, respectively. In terms of control of the model, Dyna cooperative architecture and 
hierarchical reinforcement learning provide a reasonable explanation for physical activity is more 
likely to be a complex combination of actions which is hierarchically operated with a cooperative 
form than competitive control. Finally, the exerciser-sport environment interaction in 
reinforcement learning is put forward to explore exercise behavior from a brand-new perspective. 
Keywords: physical activity; dual system model; theory of planned behavior; exercise habit; 
reinforcement learning 
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